#import "@preview/touying:0.6.1": *
#import themes.aqua: *
#import "@preview/pinit:0.2.2": *

#show: aqua-theme.with(
  aspect-ratio: "16-9",
  config-info(
    title: [概率论],
    subtitle: [Subtitle],
    author: [数学主义],
    date: datetime.today(),
    institution: [Institution],
  ),
)
#set text(font: ("Calibri", "Microsoft YaHei"), weight: "regular", size: 25pt)

#title-slide()

#outline-slide()

= 方差
== 概念
<概念>
随机变量的方差是用来衡量其取值与数学期望（平均值）偏离程度的数字特征，它能反映数据的离散或集中程度。方差越小，取值越集中；方差越大，取值越分散。

---

#box(image("广州.svg"))

---

#box(image("深圳.svg"))

广州：方差为160523054，标准差为12670

深圳：方差为209386530，标准差为14470

== 回顾: 数学期望
<数学期望>
设离散随机变量$X : Omega arrow.r bb(R)$的分布列为
$ p \( x_i \) = P \( X = x_i \) \, quad i = 1 \, 2 \, dots.h.c \, n \, dots.h.c . $
如果(这就是说无穷级数绝对收敛)
$ sum_(i = 1)^oo \| x_i \| dot.op p \( x_i \) < oo \, $ 就说
$ E \( X \) colon.eq sum_(i = 1)^oo x_i dot.op p \( x_i \) $
是随机变量$X$的#strong[数学期望] (expectation)或#strong[平均值] (mean).

---

设连续随机变量$X : Omega arrow.r bb(R)$的密度函数为$p \( x \)$. 如果
$ integral_(- oo)^oo \| x \| dot.op p \( x \) d x < oo \, $ 就说
$ E \( X \) colon.eq integral_(- oo)^oo x dot.op p \( x \) d x $
是随机变量$X$的#strong[数学期望]或#strong[平均值].

---

- 设离散随机变量$X : Omega arrow.r bb(R)$的分布列是$p \( x_i \)$

- 任给函数$g : bb(R) arrow.r bb(R)$,
  则$g \( X \) colon.eq g compose X : Omega arrow.r bb(R)$仍然是离散随机变量

- $g \( X \)$的数学期望是
  $ E \[ g \( X \) \] = sum_i g \( x_i \) dot.op p \( x_i \) $

---

- 设连续随机变量$X : Omega arrow.r bb(R)$的密度函数是$p \( x \)$

- 任给函数$g : bb(R) arrow.r bb(R)$,
  则$g \( X \) colon.eq g compose X : Omega arrow.r bb(R)$仍然是连续随机变量

- $g \( X \)$的数学期望是
  $ E \[ g \( X \) \] = integral_(- oo)^oo g \( x \) dot.op p \( x \) d x $

== 方差的定义
<方差的定义>
设$X : Omega arrow.r bb(R)$是随机变量.
如果随机变量$X^2$的数学期望$E \( X^2 \)$存在,
我们就说随机变量$\( X - E \( X \) \)^2$的数学期望$E \[ \( X - E \( X \) \)^2 \]$是随机变量$X$
(或$X$所服从的分布) 的#strong[方差] (variance), 记为
$ upright(V a r) \( X \) = E \( X - E \( X \) \)^2 . $
平方根$sqrt(upright(V a r) \( X \))$ (取正值) 叫做随机变量$X$
(或$X$所服从的分布) 的#strong[标准差] (standard deviation), 记为
$sigma \( X \)$ 或 $sigma_X$.

---

设离散随机变量$X : Omega arrow.r bb(R)$的分布列为
$ p \( x_i \) = P \( X = x_i \) \, quad i = 1 \, 2 \, dots.h.c \, n \, dots.h.c . $
那么
$ upright(V a r) \( X \) = E \( X - E \( X \) \)^2 = sum_i \( x_i - E \( X \) \)^2 dot.op p \( x_i \) . $

---

设连续随机变量$X : Omega arrow.r bb(R)$的密度函数为$p \( x \)$. 那么
$ upright(V a r) \( X \) = E \( X - E \( X \) \)^2 = integral_(- oo)^oo \( x - E \( X \) \)^2 dot.op p \( x \) d x . $

== 注意点
<注意点>
- $E \( X - E \( X \) \)^2$表示$E \[ \( X - E \( X \) \)^2 \]$,
  而不是$\[ E \( X - E \( X \) \) \]^2$

- 数学期望代表数据的中心, 方差代表数据的分散程度

- 标准差的量纲与随机变量的量纲相同

== 回顾
<回顾>
全体随机变量构成线性空间, 数学期望是这个线性空间上的线性函数:

- $E \( c \) = c$

- $E \( a X \) = a dot.op E \( X \)$

- $E \[ g_1 \( X \) plus.minus g_2 \( X \) \] = E \[ g_1 \( X \) \] plus.minus E \[ g_2 \( X \) \]$

== 方差的性质
<方差的性质>
- $upright(V a r) \( X \) = E \( X^2 \) - \[ E \( X \) \]^2$

- $upright(V a r) \( c \) = 0$

- $upright(V a r) \( a X + b \) = a^2 dot.op upright(V a r) \( X \)$

- $upright(V a r) \( X \) = 0 arrow.l.r.double exists c \, P \( X = c \) = 1$

== 例题
<例题>
设连续型随机变量$X$的密度函数为
$ p \( x \) = cases(delim: "{", 2 x \, & 0 lt.eq x lt.eq 1 \,, 0 \, & upright("其它") .) $
求数学期望$E \( X \)$与方差$upright(V a r) \( X \)$.

== AI生成的解答
<ai生成的解答>
连续型随机变量$X$的数学期望$E \( X \) = 2 / 3$，方差$upright(V a r) \( X \) = 1 / 18$。

一、计算数学期望 $E \( X \)$

根据连续型随机变量数学期望的定义，若$X$的密度函数为$p \( x \)$，则$E \( X \) = integral_(- oo)^(+ oo) x p \( x \) d x$。

结合本题中$p \( x \)$的分段形式，仅当$0 lt.eq x lt.eq 1$时$p \( x \) = 2 x$，其余区间为0，因此计算可简化为：

\1.
确定积分区间：仅需计算$x in \[ 0 \, 1 \]$的积分，即$E \( X \) = integral_0^1 x dot.op 2 x d x$。

\2.
计算定积分：先化简被积函数得$integral_0^1 2 x^2 d x$，求原函数为$2 / 3 x^3$。

\3.
代入上下限：$2 / 3 x^3 #scale(x: 120%, y: 120%)[\|]_0^1 = 2 / 3 \( 1^3 - 0^3 \) = 2 / 3$，故$E \( X \) = 2 / 3$。

二、计算方差 $upright(V a r) \( X \)$

方差计算公式为$upright(V a r) \( X \) = E \( X^2 \) - \[ E \( X \) \]^2$，需先计算$E \( X^2 \)$，再代入已求得的$E \( X \)$。

步骤1：计算 $E \( X^2 \)$
同理，$E \( X^2 \) = integral_(- oo)^(+ oo) x^2 p \( x \) d x$，同样仅需计算$x in \[ 0 \, 1 \]$的积分：

\1.
确定积分表达式：$E \( X^2 \) = integral_0^1 x^2 dot.op 2 x d x = integral_0^1 2 x^3 d x$。

\2. 计算定积分：求原函数为$2 / 4 x^4 = 1 / 2 x^4$。

\3.
代入上下限：$1 / 2 x^4 #scale(x: 120%, y: 120%)[\|]_0^1 = 1 / 2 \( 1^4 - 0^4 \) = 1 / 2$，故$E \( X^2 \) = 1 / 2$。

步骤2：代入方差公式

已知$E \( X \) = 2 / 3$，则$\[ E \( X \) \]^2 = \( 2 / 3 \)^2 = 4 / 9$，代入方差公式：
$upright(V a r) \( X \) = E \( X^2 \) - \[ E \( X \) \]^2 = 1 / 2 - 4 / 9 = 9 / 18 - 8 / 18 = 1 / 18$。

= 常用离散分布
== 二项分布
<二项分布>
二项分布在实际问题中应用广泛，典型场景包括：

+ #strong[产品质检]：检查 $n$ 件产品，计算恰好有 $k$ 件不合格品的概率。

+ #strong[随机试验]：抛 $n$ 次硬币，计算恰好出现 $k$
  次正面（定义为"成功"）的概率。

+ #strong[营销转化]：向 $n$ 个客户推送广告，计算恰好有 $k$
  个客户下单（定义为"成功"）的概率。

+ #strong[医学试验]：给 $n$ 个患者使用某药物，计算恰好有 $k$
  个患者治愈（定义为"成功"）的概率。

---

#strong[二项分布]（Binomial
Distribution）是概率论中重要的离散概率分布，用于描述在 $bold(n)$
次独立重复试验中，某事件恰好发生 $bold(k)$ 次的概率规律。随机变量 $X$
服从二项分布记为 $X tilde.op b \( n \, p \)$，其中 $n$ 为试验次数，$p$
为单次试验的"成功"概率。

---

满足以下 3 个条件的试验，其结果才服从二项分布：

+ #strong[独立重复性]：试验共进行 $n$
  次，且每次试验的结果相互独立（互不影响）。

+ #strong[结果二元性]：每次试验仅存在两种可能结果，通常定义为"成功"（目标事件发生）或"失败"（目标事件不发生）。

+ #strong[概率稳定性]：每次试验中，"成功"的概率恒为
  $p$，"失败"的概率恒为 $1 - p$（即 $q = 1 - p$）。

---

若 $X tilde.op \( n \, p \)$，则随机变量 $X$ 取值为 $k$（即恰好成功 $k$
次）的概率计算公式为：
$ P \( X = k \) = binom(n, k) p^k \( 1 - p \)^(n - k) $ 其中
$binom(n, k)$ 为组合数，表示 $n$ 次试验中恰有 $k$
次成功的所有可能情形，其计算公式为：
$ binom(n, k) = frac(n !, k ! dot.op \( n - k \) !) $

---

二项分布的数学期望为

$ E \( X \) = n dot.op p $

二项分布的方差为
$ upright("Var") \( X \) = n dot.op p dot.op \( 1 - p \) $

== 泊松分布

---
泊松分布适用于描述"稀有事件"的发生规律，典型场景包括：

+ #strong[事件计数]：某客服热线每小时接到的咨询电话次数、某网站每分钟的访问量。

+ #strong[故障/事故统计]：某设备每月发生的故障次数、某路段每天的交通事故次数。

+ #strong[自然现象]：某区域在一定时间内的地震发生次数、某块农田中害虫的数量。

---

#strong[泊松分布]（Poisson
Distribution）是一种离散概率分布，主要用于描述在#strong[固定时间或空间范围内]，某一随机事件发生#strong[特定次数]的概率规律。随机变量
$X$ 服从泊松分布记为 $X tilde.op P \( lambda \)$，其中参数 $lambda$
表示在该固定范围内，事件平均发生的次数（即期望发生次数）。

若 $X tilde.op P \( lambda \)$，则随机变量 $X$ 取值为
$k$（即事件恰好发生 $k$ 次）的概率计算公式为：
$ P \( X = k \) = frac(e^(- lambda) lambda^k, k !) $

---

若 $X tilde.op P \( lambda \)$，则随机变量 $X$ 取值为
$k$（即事件恰好发生 $k$ 次）的概率计算公式为：
$ P \( X = k \) = frac(e^(- lambda) lambda^k, k !) $

其中：

- $e$ 为自然常数，约等于 2.71828；

- $k$
为事件发生的次数，取值范围为非负整数（$k = 0 \, 1 \, 2 \, dots.h$）；

- $k !$ 为 $k$ 的阶乘，且规定 $0 ! = 1$。

---

泊松分布$X tilde.op P \( lambda \)$的数学期望是

$ E \( X \) = lambda $ 方差是

$ upright("Var") \( X \) = lambda $

---

判断一个场景是否服从泊松分布，可以考虑以下3个条件：

+ #strong[事件稀有性与独立性]：事件发生具有随机性，不会"扎堆"出现；且任意两次事件的发生相互独立，前一次事件不影响后一次事件（如前1分钟有无电话咨询不影响下1分钟有无电话咨询）。

+ #strong[平均发生次数稳定性]：在相同长度的时间/相同大小的空间内，事件的平均发生次数（即参数$lambda$）固定不变，不会随机波动（如客服热线每小时平均接10个电话，长期稳定）。

+ #strong[极小区间内无重复发生]：将固定范围拆分为极小的子区间（如1小时拆为3600秒），在任意子区间内，事件发生2次及以上的概率趋近于0，最多发生1次（如1秒内同时接2个电话的概率几乎为0）。

---

1. 客服热线每小时接到的咨询电话次数

- 匹配"稀有性与独立性"：客户打电话是随机行为，不会集中在某一时刻；A客户与B客户的咨询行为相互独立，无关联。

- 匹配"平均次数稳定性"：长期统计可知热线每小时平均接15个电话（$lambda = 15$），除非有特殊活动，否则该均值稳定。

- 匹配"极小区间无重复"：将1小时拆为3600秒，任意1秒内同时接到2个电话的概率极低，可忽略不计。

---

2. 某路段每天的交通事故次数

- 匹配"稀有性与独立性"：交通事故属于意外事件，发生时间随机；上午的事故与下午的事故无因果关系，相互独立。

- 匹配"平均次数稳定性"：该路段长期每天平均发生2起事故（$lambda = 2$），在道路状况、交通流量稳定的情况下，均值不会大幅波动。

- 匹配"极小区间无重复"：将1天拆为1440分钟，任意1分钟内该路段发生2起事故的概率几乎为0。

---

3. 某块农田中特定害虫的数量

- 匹配"稀有性与独立性"：害虫在农田中随机分布，不会集中在1平方厘米内；任意两只害虫的位置无关联，相互独立。

- 匹配"平均次数稳定性"：这块100平方米的农田，长期统计每平方米平均有5只害虫（$lambda = 5$），在生态环境稳定时，密度均值固定。

- 匹配"极小区间无重复"：将1平方米拆为10000平方厘米，任意1平方厘米内同时出现2只害虫的概率极低。

---

一、正常情况：日常取款行为与泊松分布的适配性

在无特殊事件（如负面新闻、经济波动）影响时，银行单个网点的日常取款人数，可近似认为服从泊松分布
$X tilde.op P \( lambda \)$（$lambda$ 为日均取款人数）：

+ #strong[满足"稀有性与独立性"]
  客户日常取款是随机需求驱动的行为（如日常消费、小额转账），不会集中在同一时间段；且不同客户的取款决策相互独立（除家庭共同账户等特殊情况外，占比极低），无关联影响。

+ #strong[满足"均值稳定性"]
  长期统计数据显示，该网点每天的平均取款人数（$lambda$）相对固定（例如日均50人）。在客户群体、周边环境稳定的情况下，$lambda$
  不会出现大幅波动。

+ #strong[满足"极小区间无重复"]
  将1天（1440分钟）拆分为极小的时间区间（如1分钟），任意1分钟内同时有2人及以上办理取款业务的概率较低（尤其是非上下班高峰时段），近似满足"极小区间内事件发生2次及以上概率趋近于0"的要求。

---

二、挤兑情况：取款行为对泊松分布条件的打破

当出现银行负面传闻、经济危机等触发事件时，客户会因恐慌集中前往银行取款，形成挤兑现象。此时，取款行为的底层逻辑改变，违背泊松分布的3个条件：

+ #strong[打破"稀有性与独立性"]
  挤兑时，客户取款不再是随机需求，而是受恐慌情绪驱动的"扎堆"行为（如担心银行倒闭、存款无法取出）；且客户间相互影响（看到他人排队取款会跟风加入），取款决策丧失独立性，从"随机分散"变为"集中聚集"。

+ #strong[打破"均值稳定性"]
  挤兑当天的取款人数会从日均50人飙升至数百人（如500人），甚至超过网点单日现金储备量。此时，原有的平均次数
  $lambda$ 完全失控，不再满足"均值固定"的前提，分布参数失去意义。

+ #strong[打破"极小区间无重复"]
  挤兑时，银行网点会出现长队，1分钟内可能有10人及以上同时排队等待取款，"极小区间内事件发生2次及以上"成为常态，直接违背泊松分布的关键条件，无法再用该分布描述。

== 超几何分布

---
超几何分布的核心是"有限总体+无放回抽样"，典型场景例如：

+ #strong[产品质检]：一批产品共100件（$N = 100$），其中不合格品5件（$M = 5$），从中随机抽查10件（$n = 10$），求恰好抽到2件不合格品（$k = 2$）的概率。

+ #strong[人口抽样]：某社区共500户家庭（$N = 500$），其中贫困家庭100户（$M = 100$），随机走访20户（$n = 20$），求走访到5户贫困家庭（$k = 5$）的概率。

---

#strong[超几何分布]（Hypergeometric
Distribution）描述"从有限总体中无放回抽样时，抽到特定类型物品数量"的概率规律。其核心特征是"无放回抽样"，这也是它与二项分布（有放回抽样）的唯一区别。

随机变量 $X$ 服从超几何分布记为 $X tilde.op h \( n \, N \, M \)$，其中：

- $n$：从总体中抽取的物品数量（即抽样次数）；

- $N$：总体中物品的总数量；

- $M$：总体中"目标类型"物品的数量（如不合格品、红球等，非目标类型数量为
$N - M$）。

---

超几何分布的适用场景需满足以下3个关键条件：

+ #strong[总体有限且已知]：总体总数量 $N$
  是确定的具体数值（如100件产品、50个球），而非无限或未知。
+ #strong[无放回抽样]：每次抽取的物品不再放回总体，导致每次抽样的概率依赖前一次结果（例如第一次抽到目标物品后，第二次抽到目标物品的概率会降低）。
+ #strong[总体仅分两类]：总体中仅有"目标类型"（数量
  $M$）和"非目标类型"（数量
  $N - M$）两类物品，抽样仅关注"抽到目标类型物品的数量"。

---

若 $X tilde.op h \( n \, N \, M \)$，则随机变量 $X$ 取值为 $k$（即抽取的
$n$ 个物品中，恰好有 $k$ 个目标类型）的概率计算公式为：
$ P \( X = k \) = frac(binom(M, k) dot.op binom(N - M, n - k), binom(N, n)) $
其中：

- $binom(M, k)$：从 $M$ 个目标类型物品中抽取 $k$ 个的组合数，代表"抽到
$k$ 个目标物品"的所有可能情况；

- $binom(N - M, n - k)$：从 $N - M$ 个非目标类型物品中抽取 $n - k$
个的组合数，代表"抽到 $n - k$ 个非目标物品"的所有可能情况；

- $binom(N, n)$：从总体 $N$ 个物品中抽取 $n$
个的总组合数，代表抽样的所有可能结果；

- $k$ 的取值范围需满足：$max \( 0 \, n - \( N - M \) \) lt.eq k lt.eq min \( M \, n \)$，确保所有组合数均有实际意义（非负且有效）。

---

服从超几何分布 $h \( n \, N \, M \)$ 的随机变量 $X$，其数学期望为

$ E \( X \) = n dot.op M / N $

---

服从超几何分布 $h \( n \, N \, M \)$ 的随机变量 $X$，其方差为

$ upright("Var") \( X \) = n dot.op M / N dot.op (1 - M / N) dot.op frac(N - n, N - 1) $
含义：方差比二项分布多一个修正项
$frac(N - n, N - 1)$，该修正项源于"无放回抽样导致的总体缩减效应"。当总体规模
$N$ 远大于抽样数量 $n$（如
$N > 10 n$）时，修正项近似为1，此时超几何分布可近似为二项分布
$b (n \, M / N)$。

